Climate change has increased the intensity, frequency, and duration of extreme weather events and natural disasters across the world. While the increased data on natural disasters improves the scope of machine learning (ML) in this field, progress is relatively slow. One bottleneck is the lack of benchmark datasets that would allow ML researchers to quantify their progress against a standard metric. The objective of this short paper is to explore the state of benchmark datasets for ML tasks related to natural disasters, categorizing them according to the disaster management cycle. We compile a list of existing benchmark datasets introduced in the past five years. We propose a web platform - NADBenchmarks - where researchers can search for benchmark datasets for natural disasters, and we develop a preliminary version of such a platform using our compiled list. This paper is intended to aid researchers in finding benchmark datasets to train their ML models on, and provide general directions for topics where they can contribute new benchmark datasets.
translated by 谷歌翻译
在推理时间检测到分布(OOD)数据对于机器学习的许多应用至关重要。我们提出Xood:一个新型的基于极值的OOD检测框架,用于图像分类,由两种算法组成。第一个是Xood-M完全无监督,而第二个Xood-L则是自我监督的。两种算法都依赖于神经网络激活层中数据的极端值捕获的信号,以区分分布和OOD实例。我们通过实验表明,Xood-M和Xood-l均优于效率和准确性的许多基准数据集的最先进的OOD检测方法,从而将虚假阳性率(FPR95)降低了50%,同时改善了推论时间数量级。
translated by 谷歌翻译
在最近对基于计算机的诊断系统的进步中,脑肿瘤图像的分类是一项具有挑战性的任务。本文主要着重于通过基于转移学习的深神经网络提升脑肿瘤图像的分类准确性。分类方法是从图像增强操作开始的,包括旋转,变焦,Hori-Zontal Flip,宽度偏移,高度移位和剪切,以增加图像数据集中的多样性。然后,基于Inception-V3的预训练转移学习方法提取输入脑肿瘤图像的一般特征。 fi-Nally,使用4个定制层的深神经网络用于将大多数脑瘤类型的脑肿瘤与脑膜瘤,神经胶质瘤和垂体进行分类。提出的模型以96.25%的总体准确度获得了有效性能,这比某些现有的多分类方法得到了更大的改善。鉴于,超参数的微调以及具有Inception-V3模型的定制DNN的包含导致分类精度的IM提供。
translated by 谷歌翻译
法医分析取决于从操纵图像识别隐藏迹线。由于它们无法处理功能衰减和依赖主导空间特征,传统的神经网络失败。在这项工作中,我们提出了一种新颖的门控语言注意力网络(GCA-NET),用于全球背景学习的非本地关注块。另外,我们利用所通用的注意机制结合密集的解码器网络,以引导在解码阶段期间的相关特征的流动,允许精确定位。所提出的注意力框架允许网络通过过滤粗糙度来专注于相关区域。此外,通过利用多尺度特征融合和有效的学习策略,GCA-Net可以更好地处理操纵区域的比例变化。我们表明,我们的方法在多个基准数据集中平均优于最先进的网络,平均为4.2%-5.4%AUC。最后,我们还开展了广泛的消融实验,以展示该方法对图像取证的鲁棒性。
translated by 谷歌翻译
在本文中,我们展示了HS-BAN,Bangla语言的二进制类仇恨语音(HS)数据集组成,包括超过50,000名标签评论,其中包括40.17%的仇恨和休息是非仇恨的。在准备DataSet时,遵循严格和详细的注释指南,以减少人类注释偏见。 HS DataSet还预处理了语言上,以提取不同类型的俚语,目前人们使用符号,首字母缩略词或替代拼写来编写。这些俚语被进一步分为传统和非传统俚语列表,并包含在本文的结果中。我们探讨了传统的语言特征和基于神经网络的方法,为Bangla语言开发仇恨语音检测的基准系统。我们的实验结果表明,现有的单词嵌入模型培训的型号训练,而不是用正式文本接受培训的模型。我们的基准测试显示,FastText非正式单词嵌入顶部的BI-LSTM模型实现了86.78%F1分数。我们将使数据集提供可供公共使用。
translated by 谷歌翻译
特征选择是机器学习文献中的一个广泛研究的技术,主要目的是识别提供最高预测力的功能的子集。然而,在因果推断中,我们的目标是识别与治疗变量和结果相关联的一组变量(即,混杂器)。在控制混淆变量的同时,有助于我们实现对因果效应的无偏见估计,但最近的研究表明,控制纯粹结果预测因子以及混淆可以降低估计的方差。在本文中,我们提出了一种特异性设计用于因果推理的结果自适应弹性 - 网(OAENET)方法,以选择混淆和结果预测因子,以便包含在倾向得分模型或匹配机制中。 OAENET通过现有方法提供了两个主要优点:它可以在相关数据上表现出,可以应用于任何匹配方法和任何估计。此外,与最先进的方法相比,OAENET正在计算上有效。
translated by 谷歌翻译
尽管具有抽象文本摘要的神经序列到序列模型的成功,但它具有一些缺点,例如重复不准确的事实细节并倾向于重复自己。我们提出了一个混合指针发生器网络,以解决再现事实细节的缺点和短语重复。我们使用混合指针发生器网络增强了基于注意的序列到序列,该混合指针发生器网络可以生成词汇单词并增强再现真实细节的准确性和劝阻重复的覆盖机制。它产生合理的输出文本,可以保留输入文章的概念完整性和事实信息。为了评估,我们主要雇用“百拉那” - 一个高度采用的公共孟加拉数据集。此外,我们准备了一个名为“BANS-133”的大型数据集,由133K Bangla新闻文章组成,与人类生成的摘要相关。试验拟议的模型,我们分别实现了胭脂-1和胭脂 - 2分别为0.66,0.41的“Bansdata”数据集,分别为0.67,0.42,为Bans-133k“数据集。我们证明了所提出的系统超过以前的国家 - 近距离数据集的近距离攀义概要技术及其稳定性。“Bans-133”数据集和代码基础将公开进行研究。
translated by 谷歌翻译
Brac大学(Bracu)参与了大学罗佛挑战(URC),这是由Mars社会组织的大学级学生的机器人竞赛,以设计和建造一个将用于火星早期探险家的流动站。Bracu已经设计和开发了一个全功能的下一代火星罗孚,蒙古托伊,可以在星球火星的极端敌对状态下运行。不仅拥有自主和手动控制功能的蒙古Tori,它还能够进行科学任务,以确定火星环境中的土壤和风化的特点。
translated by 谷歌翻译
识别变量之间的原因关系是决策过程的关键步骤。虽然因果推断需要随机实验,但研究人员和政策制定者越来越多地利用观测研究由于观察数据的广泛可用性和实验的不可行性而导致的因果假设。匹配方法是对观察数据进行因果推断的最常用技术。然而,由于实验者制造的不同选择,一对一匹配中的对分配过程在推论中产生不确定性。最近,提出了离散优化模型来解决这种不确定性。虽然具有离散优化模型可能的强大推断,但它们产生非线性问题并缺乏可扩展性。在这项工作中,我们提出了贪婪的算法来解决与持续结果的观测数据的强大因果推断测试实例。我们提出了一个独特的框架,可以重新设计非线性二进制优化问题作为可行性问题。通过利用可行性制定的结构,我们开发贪婪方案,以求解稳健的测试问题。在许多情况下,所提出的算法实现全球最佳解决方案。我们在三个现实世界数据集上执行实验,以展示所提出的算法的有效性,并将我们的结果与最先进的求解器进行比较。我们的实验表明,所提出的算法在计算时间方面显着优于精确的方法,同时实现了同样的因果试验结论。两个数值实验和复杂性分析都表明所提出的算法确保在决策过程中利用大数据的力量所需的可扩展性。
translated by 谷歌翻译
智能手表或健身追踪器由于负担得起和纵向监测功能而获得了潜在的健康跟踪设备的广泛欢迎。为了进一步扩大其健康跟踪能力,近年来,研究人员开始研究在实时利用光摄影学(PPG)数据中进行心房颤动(AF)检测的可能性,这是一种几乎所有智能手表中广泛使用的廉价传感器。从PPG信号检测AF检测的重大挑战来自智能手表PPG信号中的固有噪声。在本文中,我们提出了一种基于深度学习的新方法,即利用贝叶斯深度学习的力量来准确地从嘈杂的PPG信号中推断出AF风险,同时提供了预测的不确定性估计。在两个公开可用数据集上进行的广泛实验表明,我们提出的方法贝尼斯甲的表现优于现有的最新方法。此外,贝内斯比特(Bayesbeat)的参数比最先进的基线方法要少40-200倍,使其适合在资源约束可穿戴设备中部署。
translated by 谷歌翻译